一樣,在八月底的時候(2024.08),一間叫COSINE的新創公司開發了名叫Genie的AI軟體工程師,
在軟體工程解題Benchmark SWE-BENCH中解了30%的題目,在目前的AI Software Engineer排行中排名第一。
所以在官方網站,他也用了一個很邱的標題「Genie: SOTA Software engineering model」
嘖,在想想軟體工程師會不會被取代之前,其實應該要把這個問題拆開來看:
1.雖說SWE-BENCH是目前最有公信力的Software Solution Benchmark,但這只包含了Python專案。世界上多數的專案還是由多個語言組成(ex. Flask專案就有可能由Flask+vue.js和HTML,CSS等標籤語言組成)。
2.延續上題,所謂的「跨語言(Cross-lingual)」不是「多語言(Multilingual)」,而是用「請改寫以下句子:Today I will go to school to study English」這樣兩種語言混合的方式與AI對話。這種跨語言的方式很難讓LLM理解同一句話不同語言的語義,而現在的軟體工程常常就是這種多種複合式程式組合的專案。[1]
3.要教會AI用工具或寫程式(Debug)其實不簡單,現在有很多研究還是聚焦在要怎麼讓LLM把程式寫好[2]。況且如果一步一步帶著AI解問題,這可能要用上萬次實例及示範,且這還不包含要怎麼設計強化學習算法。
Reference.
Ref.
[1] Grammarly - MEDIT: Multilingual Text Editing via Instruction Tuning
https://doi.org/10.18653/v1/2024.naacl-long.56
[2] Standford - Teach AI How to Code: Using Large Language Models as Teachable Agents for Programming Education
https://doi.org/10.1145/3613904.3642349